퀄컴 헥사곤(Hexagon) 프로세서
2025-10-09, G25DR
1. 헥사곤 프로세서의 정의와 위상
퀄컴 헥사곤(Hexagon) 프로세서는 퀄컴의 시스템 온 칩(SoC), 즉 스냅드래곤(Snapdragon) 플랫폼 내에서 이기종 컴퓨팅(Heterogeneous Computing) 아키텍처의 핵심을 이루는 처리 장치이다.1 본래 디지털 신호 처리 장치(Digital Signal Processor, DSP)로 설계되었으나, 기술의 발전에 따라 현재는 신경망 처리 장치(Neural Processing Unit, NPU)로서의 역할을 겸하며 온디바이스 인공지능(On-Device AI) 시대를 선도하고 있다.2 헥사곤이라는 명칭은 ’6세대 디지털 신호 프로세서(sixth generation digital signal processor)’를 의미하는 내부 코드명 QDSP6에서 유래했으며, 이는 퀄컴의 오랜 통신 및 신호 처리 기술의 유산을 상징한다.2
헥사곤 아키텍처의 근본적인 설계 철학은 모바일 환경의 엄격한 제약 조건, 즉 제한된 배터리 용량 하에서 최고의 연산 성능을 구현하는 ’저전력 고성능’으로 요약된다.2 높은 클럭 속도에 의존하여 성능을 높이는 대신, 사이클 당 더 많은 작업을 처리(high levels of work per cycle)하는 효율 중심의 접근 방식을 채택했다.4 이러한 설계 철학은 초기 모뎀 및 멀티미디어 처리에서 퀄컴의 기술적 우위를 확보하는 기반이 되었으며, 나아가 AI 연산의 폭발적인 증가에 대응하는 NPU로 성공적으로 진화하는 토대가 되었다.
헥사곤의 성공은 우연이 아닌 필연적 진화의 결과로 분석해야 한다. 그 과정을 살펴보면, 첫째, 헥사곤은 태생부터 DSP로서 신호 처리에 내재된 대규모 데이터의 병렬 처리에 특화되어 있었다.4 둘째, 딥러닝 신경망의 핵심을 이루는 컨볼루션(Convolution) 및 행렬 곱셈(Matrix Multiplication) 연산은 본질적으로 DSP가 수행하던 병렬 데이터 처리와 근본적인 유사성을 공유한다.3 따라서 퀄컴은 기존의 고효율 병렬 처리 DSP 아키텍처를 기반으로, AI 연산에 특화된 벡터 및 텐서 유닛을 점진적으로 확장하는 전략을 통해 효율적으로 고성능 NPU를 개발할 수 있었다. 이는 완전히 새로운 아키텍처를 설계하는 것에 비해 위험 부담이 적고, 축적된 저전력 설계 노하우를 계승할 수 있는 최적의 경로였다. 헥사곤의 NPU로의 전환은 단절적 변화가 아닌, DSP로서 축적된 기술 역량이 AI라는 새로운 워크로드에 맞게 자연스럽게 확장되고 진화한 필연적인 결과이다.
본 보고서는 헥사곤 프로세서의 근본적인 아키텍처 특성 분석을 시작으로, DSP에서 NPU로 진화해 온 과정, 핵심 AI 가속 엔진인 HVX와 HMX의 구조, 퀄컴 AI 엔진 내에서의 시스템 수준의 역할, 세대별 성능 변화, 그리고 개발 생태계까지 총체적으로 조망하여 헥사곤의 기술적 본질과 미래 가치를 심층적으로 탐구하고자 한다.
2. 헥사곤 코어 아키텍처의 이해: 효율적 병렬 처리의 근간
헥사곤 아키텍처는 저전력 환경에서 최대의 병렬 처리 성능을 달성하기 위해 VLIW, SIMD, 하드웨어 멀티스레딩이라는 세 가지 핵심 기술을 유기적으로 결합하였다.
2.1 VLIW (Very Long Instruction Word): 정적 스케줄링의 미학
헥사곤은 최대 4개의 독립적인 명령어를 하나의 ’패킷(packet)’으로 묶어 단일 클럭 사이클에 4개의 실행 유닛으로 동시에 보내는 4-way VLIW(Very Long Instruction Word) 아키텍처를 채택하고 있다.2 VLIW의 가장 큰 특징은 명령어 간의 의존성을 분석하고 병렬 실행 계획을 수립하는 복잡한 작업을 하드웨어의 동적 스케줄링(dynamic scheduling) 로직이 아닌, 컴파일 타임에 소프트웨어(컴파일러)가 수행하는 정적 스케줄링(static scheduling)에 의존한다는 점이다.7
이러한 접근 방식은 복잡하고 전력 소모가 큰 동적 스케줄링 회로를 제거할 수 있게 해, 실리콘 면적과 전력 효율성 측면에서 상당한 이점을 제공한다.7 이는 헥사곤이 높은 클럭 속도(MHz)에 의존하기보다 ’사이클 당 처리량(work per cycle)’을 극대화하여 전력 대비 성능을 높이는 핵심 설계 철학을 뒷받침한다.4
전력 효율성을 위해 선택된 VLIW 아키텍처는 AI 시대에 ’성능 예측 가능성’이라는 새로운 가치를 제공한다. 일반적인 CPU의 복잡한 동적 스케줄링(Out-of-Order Execution)은 평균 성능은 높지만, 특정 입력에 대한 정확한 실행 시간을 예측하기 어렵게 만든다. 반면, 헥사곤의 VLIW는 컴파일 타임에 실행 순서가 고정되므로 연산의 지연 시간이 매우 예측 가능하다.7 자율주행, 실시간 번역, 산업용 로봇 제어와 같은 실시간 AI 애플리케이션에서는 평균 성능보다 ’최악의 경우 실행 시간(Worst-Case Execution Time, WCET)’을 보장하는 것이 시스템의 안정성에 매우 중요하다. VLIW의 예측 가능성은 이러한 실시간 제약 조건을 충족시키는 데 구조적으로 유리하게 작용하며, 이는 헥사곤이 단순한 모바일 NPU를 넘어 자동차 및 산업용 IoT 시장으로 확장될 수 있는 중요한 잠재력을 시사한다.9
2.2 SIMD (Single Instruction, Multiple Data): 데이터 병렬성의 구현
헥사곤은 명령어 수준의 병렬성(Instruction-Level Parallelism, ILP)을 처리하는 VLIW와 더불어, 데이터 수준의 병렬성(Data-Level Parallelism, DLP)을 처리하기 위해 SIMD(Single Instruction, Multiple Data) 연산 방식을 지원한다.2 이는 하나의 명령어로 벡터 레지스터에 담긴 여러 개의 데이터 요소를 동시에 처리하는 기술이다. 헥사곤의 실행 유닛은 64비트 벡터 연산이 가능하며, 8비트, 16비트, 32비트, 64비트 정수뿐만 아니라 분수(fractional), 복소수(complex) 등 신호 처리에 특화된 다양한 데이터 타입을 효율적으로 처리할 수 있다.7 VLIW와 SIMD의 조합은 구조화된 데이터를 대량으로 처리해야 하는 멀티미디어 및 통신 신호 처리 작업에서 헥사곤이 탁월한 성능을 발휘하는 기반이 된다.
2.3 하드웨어 멀티스레딩: 지연 시간 은닉(Latency Hiding) 기술
헥사곤 코어는 단일 코어 내에서 여러 개의 하드웨어 스레드를 동시에 실행할 수 있는 하드웨어 멀티스레딩을 지원한다.2 이는 특정 스레드가 L2 캐시 미스(miss)와 같이 긴 메모리 접근 지연(long latency)을 겪을 때, 코어의 실행 유닛이 멈추지 않고(stall) 즉시 다른 스레드의 명령어를 처리하도록 전환하여 코어의 전체 처리량을 극대화하는 ‘지연 시간 은닉(Latency Hiding)’ 기술이다.
초기 헥사곤 V1부터 V4까지는 ‘인터리브 멀티스레딩(Interleaved Multi-Threading, IMT)’ 또는 ‘배럴 스레딩(Barrel Threading)’ 방식을 사용했다.2 이는 매 클럭 사이클마다 라운드-로빈(Round-robin) 방식으로 스레드를 기계적으로 전환하는 방식이다. 예를 들어, 3개의 하드웨어 스레드를 지원하는 600 MHz 물리 코어는 각 스레드에게 200 MHz의 논리 코어처럼 보이게 하여, 한 스레드가 지연 상태에 빠져도 다른 두 스레드가 즉시 실행 유닛을 활용할 수 있도록 보장한다.2
Hexagon V5부터는 ’동적 멀티스레딩(Dynamic Multi-Threading, DMT)’으로 진화했다.2 이 방식은 L2 캐시 미스나 인터럽트 대기와 같은 특정 이벤트가 발생했을 때만 스레드를 전환하여, 불필요한 컨텍스트 스위칭 오버헤드를 줄이고 단일 스레드의 성능을 향상시켰다. 개발자 관점에서 이러한 하드웨어 스레드들은 공유 메모리를 사용하는 별개의 프로세서 코어처럼 보이며, pthreads와 같은 표준 소프트웨어 스레딩 모델을 통해 프로그래밍할 수 있어 비교적 쉽게 활용이 가능하다.4
이러한 하드웨어 멀티스레딩은 단순한 성능 향상 기술을 넘어, 헥사곤이 SoC 내에서 ’서비스 프로세서’로 기능하게 하는 핵심 요소이다. 스냅드래곤 SoC는 카메라, 오디오, 센서 등 다양한 IP로부터 동시에 발생하는 다수의 실시간 데이터 스트림을 처리해야 한다.4 헥사곤의 하드웨어 멀티스레딩은 이러한 여러 개의 독립적인 데이터 스트림을 단일 코어에서 동시에, 그리고 효율적으로 처리할 수 있게 한다. 예를 들어, 한 스레드는 오디오 인코딩을, 다른 스레드는 이미지 후처리를, 세 번째 스레드는 센서 데이터 융합을 동시에 처리할 수 있다. 이는 메인 CPU 코어를 활성화하지 않고도 저전력으로 다양한 백그라운드 작업을 처리할 수 있음을 의미하며, 헥사곤이 단순한 연산 가속기를 넘어 SoC 내 여러 하위 시스템을 위한 ‘다중 서비스 처리 허브’ 역할을 수행하게 만든다. 이 역할은 퀄컴 AI 엔진에서 헥사곤 NPU가 다양한 AI 작업을 동시에 처리하고, 센싱 허브와 연계하여 상시 작동(always-on) AI 기능을 구현하는 중요한 아키텍처적 기반이 되었다.1
3. AI 시대를 향한 진화: DSP에서 NPU로
헥사곤 프로세서의 역사는 통신 및 멀티미디어 처리를 위한 고효율 DSP에서 시작하여, 온디바이스 AI 시대를 이끄는 NPU로 진화해 온 과정 그 자체이다.
3.1 초기 DSP의 역할 (2006-2015): 통신과 멀티미디어의 심장
초기 헥사곤 DSP는 스냅드래곤 SoC 내에서 두 가지 핵심적인 역할을 수행했다. 첫째는 모뎀 DSP(mDSP)로서, 퀄컴은 상용 4G LTE 모뎀의 거의 모든 신호 처리 및 제어 로직을 헥사곤 DSP 상에서 구동했다.5 이는 CPU와 DSP를 분리하는 전통적인 아키텍처와 달리, 제어 코드와 신호 처리 코드를 모두 헥사곤에서 처리하는 통합 구조를 채택한 것으로, 퀄컴 모뎀의 독보적인 성능과 전력 효율 우위의 핵심 비결로 작용했다.11
둘째는 애플리케이션 DSP(aDSP)로서, 오디오/음성 처리(보코더, 노이즈 캔슬링), 이미지 처리, 저전력 센서 데이터 처리 등 다양한 멀티미디어 워크로드를 CPU로부터 오프로드(offload)하는 역할을 담당했다.4 이를 통해 시스템 전체의 전력 소모를 크게 절감하고 배터리 수명을 연장할 수 있었다. 2011년 ’헥사곤 액세스 프로그램’과 2013년 ’헥사곤 SDK’가 공개되면서, 외부 개발자들도 aDSP를 직접 프로그래밍하여 자신의 애플리케이션에서 CPU 작업을 오프로드할 수 있는 길이 열렸다.4
3.2 NPU로의 전환점: AI 워크로드의 부상
2010년대 중반, 딥러닝 기술이 부상하면서 모바일 기기에서도 AI 추론을 수행하려는 요구가 커지기 시작했다. 퀄컴은 2015년 ’스냅드래곤 신경망 처리 엔진(Snapdragon Neural Processing Engine, SNPE) SDK’를 발표하며, CPU, GPU와 함께 헥사곤 DSP를 AI 가속에 활용하는 이기종 컴퓨팅 전략을 공식화했다.2 이 시점부터 헥사곤은 AI 추론 엔진으로서의 잠재력을 본격적으로 드러내기 시작했다.
결정적인 전환점은 전용 AI 하드웨어의 통합이었다. 2019년 출시된 스냅드래곤 855에 탑재된 헥사곤 690 프로세서에는 ’헥사곤 텐서 가속기(Hexagon Tensor Accelerator, HTA)’라는 이름의 하드웨어 블록이 처음으로 추가되었다.2 HTA는 이후 HMX(Hexagon Matrix eXtensions)로 발전하며, 신경망의 핵심 연산인 행렬 곱셈을 극도로 높은 효율로 처리하도록 설계되었다. 이로써 헥사곤은 범용 DSP를 넘어, AI 연산에 특화된 하드웨어를 갖춘 본격적인 NPU로 거듭나게 되었다. 이후 퀄컴은 공식적으로 ’DSP’라는 용어 대신 ’AI 엔진’의 핵심 프로세서, ‘헥사곤 NPU’, 또는 ’헥사곤 텐서 프로세서’라는 명칭을 사용하기 시작했으며, 이는 헥사곤의 주력 워크로드가 전통적인 신호 처리에서 AI 추론으로 완전히 전환되었음을 상징한다.1
헥사곤의 진화 과정은 ’온디바이스 AI’의 기술적 요구사항 변화를 그대로 투영한다. 초기 모바일 AI는 이미지 분류, 객체 탐지 등 컴퓨터 비전 작업에 집중되었고, 이는 컨볼루션 연산뿐만 아니라 이미지 전/후처리 등 벡터 연산의 비중이 높았다. 이 시기에는 HVX(벡터 확장)가 도입되어 DSP의 이미지 처리 능력을 강화하는 방향으로 진화했다.2 이후 ResNet, Inception 등 더 깊고 복잡한 신경망이 등장하며 순수한 행렬 곱셈 연산의 비중이 폭발적으로 증가하자, 이에 대응하기 위해 HTA/HMX(텐서/행렬 확장)가 도입되어 행렬 연산 처리량을 극대화했다.2 현재는 트랜스포머(Transformer) 기반의 거대 언어 모델(LLM)을 온디바이스에서 실행해야 하는 생성형 AI 시대가 도래했다. 이에 대응하여 헥사곤 NPU는 더 큰 공유 메모리, 마이크로타일 추론, INT4와 같은 저정밀도 데이터 타입 지원 등 생성형 AI에 특화된 기능들을 추가하며 진화하고 있다.1 이처럼 헥사곤 아키텍처의 변화(HVX → HMX → 생성형 AI 최적화)는 모바일 AI의 주류 패러다임이 이동해 온 역사를 하드웨어 수준에서 증명하는 로드맵과 같다.
4. 핵심 AI 가속 엔진: HVX와 HMX
헥사곤 NPU의 강력한 AI 처리 능력은 HVX와 HMX라는 두 개의 핵심 가속 엔진으로부터 나온다. 이 두 엔진은 각각 벡터 연산과 행렬 연산이라는 서로 다른 영역에 특화되어 상호 보완적인 역할을 수행한다.
4.1 헥사곤 벡터 확장 (Hexagon Vector eXtensions, HVX)
HVX는 헥사곤 코어에 부착된 SIMD(Single Instruction, Multiple Data) 코프로세서로, 매우 넓은 벡터(very wide SIMD) 연산을 고속으로 처리하도록 설계되었다.18 2013년 헥사곤 680 DSP와 함께 처음 발표되었으며, 주로 컴퓨터 비전 및 이미지 처리 워크로드를 CPU 대신 DSP에서 효율적으로 처리하는 것을 목표로 했다.2
HVX 아키텍처는 현재 1024비트(128바이트)의 벡터 길이를 지원하며, 32개의 1024비트 데이터 레지스터(V0-V31)와 조건부 연산을 위한 4개의 프레디케이트 레지스터(Q0-Q3)를 갖추고 있다.19 하나의 1024비트 벡터 레지스터는 다음과 같이 다양한 데이터 타입을 담을 수 있다 19:
-
128개의 8비트 바이트(byte)
-
64개의 16비트 하프워드(halfword)
-
32개의 32비트 워드(word)
HVX는 정수 및 부동소수점 연산을 모두 지원하며, 이미지 필터링, 히스토그램 연산, 특징점 추출 등 픽셀 단위의 병렬 처리가 많이 요구되는 작업에서 CPU 대비 압도적인 성능과 전력 효율을 제공한다.19 Halide와 같은 도메인 특화 언어(DSL)는 C++로 작성된 이미지 처리 알고리즘을 HVX 벡터 명령어로 자동 변환하여 개발자가 HVX의 성능을 쉽게 활용할 수 있도록 지원한다.16 메모리 접근 측면에서 HVX는 L2 캐시를 첫 번째 레벨 메모리로 사용하며, 데이터 프리페치(prefetch) 명령을 통해 DRAM 접근으로 인한 지연 시간을 최소화하는 전략을 사용한다.20
4.2 헥사곤 매트릭스 확장 (Hexagon Matrix eXtensions, HMX) / 텐서 가속기 (HTA)
HMX는 HTA(Hexagon Tensor Accelerator)로도 알려져 있으며, 헥사곤 NPU 내에 통합된 전용 하드웨어 블록이다. 이는 딥러닝 신경망의 연산량 대부분을 차지하는 행렬 곱셈(matrix multiplication)과 컨볼루션(convolution) 연산을 가속하는 데 극도로 특화되어 있다.3 퀄컴을 비롯한 다수의 NPU 설계사들이 채택하고 있는 ‘벡터 + 행렬’ 조합 아키텍처에서 ‘행렬’ 부분을 담당하는 핵심 유닛이다.3
HMX의 내부 구조는 공개되지 않았으나, 시스톨릭 어레이(Systolic Array)와 유사한 구조를 가질 것으로 추정된다. 이러한 구조는 입력 데이터를 여러 처리 장치(Processing Element)에 걸쳐 재사용(Data Reuse)함으로써 메모리 대역폭 병목 현상을 완화하고, 데이터 지역성(Data Locality)을 극대화하여 연산 효율을 높이는 데 초점을 맞춘다.6 헥사곤 NPU가 자랑하는 전체 TOPS(Trillions of Operations Per Second) 성능의 대부분은 바로 이 HMX/HTA에서 나오며, 이 유닛의 성능이 곧 해당 스냅드래곤 칩셋의 AI 성능을 결정하는 핵심 지표가 된다.6
HMX는 모델 경량화(Quantization) 기술과 밀접하게 연관되어, 주로 INT8(8비트 정수), INT16과 같은 저정밀도 정수형 데이터 타입에 최적화되어 있다. 특히 스냅드래곤 8 Gen 2부터는 INT4(4비트 정수) 데이터 타입을 네이티브로 지원하기 시작하여, 동일한 하드웨어 자원으로 더 높은 연산 처리량을 달성하고 메모리 사용량을 절반으로 줄일 수 있게 되었다.23 개발자가 HMX를 직접 저수준에서 프로그래밍하는 것은 제한적이며, 주로 퀄컴의 신경망 처리 SDK(SNPE, QNN)를 통해 추상화된 형태로 접근한다. SDK의 모델 변환기는 주어진 신경망 모델을 분석하여 HMX에서 실행 가능한 최적의 코드로 자동 컴파일하는 역할을 수행한다.12
HVX와 HMX의 관계는 ’범용성’과 ‘특화성’ 사이의 절묘한 아키텍처적 분업으로 해석할 수 있다. AI 워크로드는 통상적으로 90%의 행렬 곱셈과 10%의 그 외 연산(활성화 함수, 정규화, 풀링 등)으로 구성된다. 만약 모든 것을 처리하는 단일 가속기를 만든다면, 10%의 비주류 연산 때문에 전체 효율이 저하되는 ’아름달의 법칙(Amdahl’s Law)’의 한계에 부딪힐 수 있다. 퀄컴은 이 문제를 ’분업’으로 해결했다. HMX는 가장 비중이 큰 행렬 연산에 극도로 특화시켜 효율을 극대화하고, 상대적으로 더 유연하고 프로그래밍 가능한 HVX가 나머지 일반적인 벡터 연산을 처리하도록 역할을 분담한 것이다.3 이러한 구조는 헥사곤 NPU가 다양한 종류의 신경망 모델에 유연하게 대응할 수 있게 해준다. 예를 들어, 새로운 활성화 함수가 등장하더라도 HMX 하드웨어를 변경하는 대신 HVX를 위한 소프트웨어 라이브러리 업데이트만으로 신속하게 대응이 가능하다. 결국, HMX의 압도적인 성능과 HVX의 유연한 프로그래밍 가능성의 조합은 헥사곤 NPU가 높은 성능과 넓은 모델 지원 범위를 동시에 달성할 수 있게 하는 핵심적인 설계 전략이다.
5. 시스템의 완성: 퀄컴 AI 엔진
퀄컴 AI 엔진은 헥사곤 NPU를 단독으로 지칭하는 것이 아니라, SoC 내의 여러 이기종(heterogeneous) 프로세서들을 유기적으로 결합하여 AI 워크로드를 시스템 전체 관점에서 최적으로 처리하는 통합 아키텍처를 의미한다.1
5.1 이기종 컴퓨팅(Heterogeneous Computing) 아키텍처
이기종 컴퓨팅은 단일 종류의 프로세서에 모든 작업을 맡기는 대신, 각기 다른 특성을 가진 여러 프로세서(NPU, CPU, GPU 등)가 협력하여 작업을 가장 효율적으로 처리하는 방식이다.1 퀄컴 AI 엔진은 이러한 철학을 바탕으로 설계되었으며, 주요 구성 요소는 다음과 같다 1:
-
퀄컴 헥사곤 NPU (Qualcomm Hexagon NPU)
-
퀄컴 크라이오/오리온 CPU (Qualcomm Kryo/Oryon CPU)
-
퀄컴 아드레노 GPU (Qualcomm Adreno GPU)
-
퀄컴 센싱 허브 (Qualcomm Sensing Hub)
-
메모리 서브시스템 (Memory Subsystem)
이 프로세서들은 각자의 장점을 극대화하고 단점을 보완하며 AI 애플리케이션을 빠르고 효율적으로 실행하도록 함께 작동하게끔 설계되었다(engineered to work together).1
5.2 구성 요소별 역할 분담
퀄컴 AI 엔진 내에서 각 프로세서는 다음과 같이 명확한 역할 분담을 통해 최적의 효율을 추구한다 1:
-
Hexagon NPU: AI 추론의 주력 엔진이다. 지속적이고(sustained) 높은 처리량이 요구되는 AI 연산을 최저 전력으로 수행하는 데 특화되어 있다. 스칼라(scalar), 벡터(vector), 텐서(tensor) 연산을 모두 처리할 수 있는 융합된 AI 가속기 아키텍처를 특징으로 한다.1
-
Adreno GPU: 대규모 병렬 처리에 능하며, 특히 FP16/FP32와 같은 고정밀도 부동소수점 연산이 필요한 AI 모델이나 스트리밍 데이터를 처리하는 데 강점을 보인다. 그래픽 렌더링과 AI 연산을 동시에 처리할 수 있다.1
-
Kryo/Oryon CPU: 순차적인 제어 로직 처리와 즉각적인 반응이 필요한 저지연성(low-latency) AI 작업에 적합하다. 운영체제 및 애플리케이션 실행이 주 업무이므로 AI 전용으로 할당될 수 있는 용량은 제한적이다.1
-
Sensing Hub: 초저전력으로 상시 작동(Always-on)하며, 음성 키워드 인식(wake-on word), 상황 인지, 센서 데이터 분석 등 지속적인 배경 AI 작업을 처리한다. SoC의 다른 부분이 비활성화된 상태에서도 독립적으로 동작하여 시스템 전체의 전력 소모를 최소화하는 데 결정적인 역할을 한다.1
이러한 역할 분담은 퀄컴의 소프트웨어 스택, 즉 퀄컴 신경망 처리 SDK(SNPE, QNN)에 의해 자동으로 조율된다. SDK는 개발자가 제공한 AI 모델을 분석하여, 모델 내의 각 연산(operation)을 NPU, GPU, CPU 중 가장 적합한 프로세서에 자동으로 할당하고 최적의 실행 계획을 수립한다.1 이를 통해 개발자는 복잡한 하드웨어 구조를 직접 다루지 않고도 이기종 컴퓨팅의 이점을 누릴 수 있다.
퀄컴 AI 엔진의 진정한 경쟁력은 헥사곤 NPU나 아드레노 GPU 등 개별 프로세서의 성능 수치를 넘어, ’시스템 수준의 최적화’에 있다. 경쟁사들도 NPU, CPU, GPU를 탑재하고 있지만, 퀄컴의 강점은 이들 프로세서가 처음부터 ’함께 작동하도록 설계’되었다는 점에 있다.1 이는 하드웨어 수준에서의 효율적인 데이터 공유 경로, 통합된 메모리 관리, 그리고 이 모든 것을 조율하는 정교한 소프트웨어 스택을 포함한다. 예를 들어, AI 기반 카메라 필터를 적용하는 경우, 이미지 신호 프로세서(ISP)인 Spectra가 이미지 데이터를 받아, 헥사곤 NPU가 객체 분할(semantic segmentation)을 수행하고, 아드레노 GPU가 분할된 영역에 그래픽 효과를 렌더링하며, 크라이오 CPU가 전체 앱의 흐름을 제어하는 과정이 유기적으로 일어나야 한다. 이러한 ‘엔드-투-엔드(end-to-end)’ 파이프라인 최적화는 퀄컴이 통신 모뎀부터 멀티미디어, AI에 이르기까지 SoC의 거의 모든 핵심 IP를 자체적으로 설계(in-house design)하기에 가능하다. 이는 외부 IP를 조합하는 경쟁사 대비 시스템 전체의 성능과 전력 효율을 최적화하는 데 있어 구조적인 우위를 제공한다.
6. 성능 분석: 연산 능력(TOPS)과 실제 벤치마크
헥사곤 NPU의 성능은 세대를 거듭하며 비약적으로 발전해왔다. 이러한 성능을 평가하는 지표로는 원시 연산 능력을 나타내는 TOPS와 실제 워크로드에서의 성능을 측정하는 MLPerf 벤치마크가 주로 사용된다.
6.1 세대별 헥사곤 NPU 성능(TOPS) 변화
TOPS는 ’초당 테라 연산(Trillions of Operations Per Second)’의 약자로, NPU의 원시적인(raw) 연산 성능을 나타내는 대표적인 지표이다. 일반적으로 8비트 정수(INT8) 연산을 기준으로 측정되며, TOPS 수치가 높을수록 초당 더 많은 연산을 처리할 수 있음을 의미한다.6
헥사곤 NPU의 TOPS 성능은 AI 기술의 발전에 발맞춰 기하급수적으로 증가해왔다. 스냅드래곤 845에 탑재된 헥사곤 685가 약 3 TOPS의 성능을 보인 것을 시작으로, 스냅드래곤 865에서는 15 TOPS, 스냅드래곤 888에서는 26 TOPS, 스냅드래곤 8 Gen 1에서는 52 TOPS로 급격히 성장했다.2 최근에는 PC 시장을 겨냥한 스냅드래곤 X Elite가 45 TOPS, 차세대 X2 Elite는 80 TOPS의 NPU 성능을 예고하며 온디바이스 생성형 AI 시대를 준비하고 있다.28
최근의 급격한 TOPS 증가는 단순한 마케팅 경쟁을 넘어, ’온디바이스 생성형 AI’라는 명확하고 계산적으로 매우 까다로운 목표를 달성하기 위한 필수적인 기술적 진보로 해석해야 한다. 과거에는 높은 TOPS를 온전히 활용할 만한 킬러 애플리케이션이 부족하다는 비판이 있었으나, 70억(7B)에서 130억(13B) 파라미터 규모의 거대 언어 모델(LLM)을 디바이스 내에서 실시간으로 구동하기 위해서는 최소 40 TOPS 이상의 NPU 성능이 필요하다는 것이 업계의 공감대(예: Microsoft Copilot+ PC 요구사항)가 되었다.27 퀄컴의 Snapdragon X Elite(45 TOPS)와 X2 Elite(80 TOPS)의 성능 로드맵은 정확히 이 요구사항을 충족시키고 넘어서는 것을 목표로 한다. 따라서 ‘TOPS 인플레이션’ 현상은 마케팅 경쟁의 산물이면서 동시에 명확한 기술적 목표를 향한 필연적인 과정이다.
다음 표는 주요 스냅드래곤 플랫폼에 탑재된 헥사곤 NPU의 세대별 성능 변화를 요약한 것이다.
표 1. 스냅드래곤 세대별 헥사곤 NPU 성능 비교
| 칩셋 모델 (출시 연도) | 헥사곤 프로세서 | 퀄컴 AI 엔진 | NPU 성능 (INT8 TOPS) | 주요 특징 |
|---|---|---|---|---|
| Snapdragon 845 (2018) | Hexagon 685 | 3세대 | ~3 | HVX |
| Snapdragon 855 (2019) | Hexagon 690 | 4세대 | 7+ | HTA (텐서 가속기) 첫 도입 |
| Snapdragon 865 (2020) | Hexagon 698 | 5세대 | 15 | 성능 대폭 향상 |
| Snapdragon 888 (2021) | Hexagon 780 | 6세대 | 26 | Fused AI Accelerator 아키텍처 |
| Snapdragon 8 Gen 1 (2022) | Hexagon (Gen 7) | 7세대 | 52 | 텐서 가속기 2배 성능 향상 |
| Snapdragon 8 Gen 2 (2023) | Hexagon (Gen 8) | 8세대 | 26 | INT4 정밀도 첫 지원 23 |
| Snapdragon 8 Gen 3 (2024) | Hexagon (Gen 9) | 9세대 | 34 | 생성형 AI 최적화, 와트당 성능 40%↑ 23 |
| Snapdragon X Elite (2024) | Hexagon NPU | N/A | 45 | PC용, 13B+ LLM 지원 27 |
| Snapdragon X2 Elite (2026) | Hexagon NPU | N/A | 80 | 차세대 PC용 NPU 28 |
6.2 실제 워크로드 성능: MLPerf Mobile 벤치마크
MLPerf는 학계와 산업계가 공동으로 개발한 표준 AI 벤치마크로, 이미지 분류, 객체 탐지, 자연어 처리 등 실제 사용 사례에 기반한 모델을 사용하여 시스템의 AI 추론 성능을 측정한다.32 이는 하드웨어의 이론적인 최대 성능인 TOPS보다 실제 애플리케이션에서의 성능을 더 현실적으로 반영하기 때문에 중요한 지표로 인정받는다. 퀄컴은 지속적으로 MLPerf Mobile 벤치마크에 결과를 제출하며 경쟁사 대비 높은 성능과 효율성을 입증해왔다.33
다만 MLPerf 결과는 제출 기관, 사용된 소프트웨어 스택, 모델 최적화 수준에 따라 달라질 수 있어 직접적인 ‘사과 대 사과(apples-to-apples)’ 비교가 복잡하며, 모바일 생태계의 파편화가 벤치마킹을 어렵게 만드는 요인으로 작용한다.34 현재 공개된 자료에서는 스냅드래곤 8 Gen 3의 구체적인 MLPerf v3.1 최종 점수를 확인할 수 없으나, 벤치마크 애플리케이션이 해당 칩셋을 공식 지원 목록에 포함하고 있으며 35, 퀄컴이 공개한 자체 벤치마크 자료에서는 높은 성능을 기록했다.30
6.3 경쟁 아키텍처와의 비교: Apple Neural Engine (ANE)
온디바이스 AI 시장에서 헥사곤 NPU의 가장 강력한 경쟁자는 애플의 ANE(Apple Neural Engine)이다. 두 아키텍처는 서로 다른 진화 경로와 설계 철학을 보여준다. 퀄컴 헥사곤은 DSP에서 진화한 유연한 아키텍처를 바탕으로 INT4, INT8, INT16 등 다양한 저정밀도 정수형 데이터 타입을 적극적으로 지원하는 반면, 애플 ANE는 초기에는 FP16(16비트 부동소수점) 연산에 집중하다가 A17 Pro 및 M4 칩에 이르러서야 INT8 지원을 본격적으로 추가했다.23 이는 각 사의 AI 전략과 최적화 방향의 차이를 반영한다.
TOPS 경쟁 또한 매우 치열하다. 스냅드래곤 X Elite(45 TOPS)는 동 시기의 Apple M2(15.8 TOPS) 대비 압도적인 성능을 보였으나, 이후 Apple M4(38 TOPS)가 등장하며 격차가 크게 줄어드는 등 양사가 엎치락뒤치락하는 양상을 보인다.37 생태계 접근 방식에서도 차이가 있다. 애플은 CoreML이라는 고도로 통합된 프레임워크를 통해 개발자가 ANE, GPU, CPU를 비교적 쉽게 활용할 수 있도록 추상화 수준이 높은 개발 환경을 제공한다.39 반면, 퀄컴은 QNN 및 헥사곤 SDK를 통해 더 많은 하드웨어 제어 옵션을 제공하지만, 상대적으로 복잡한 툴체인을 가지고 있다는 평가를 받는다.12
7. 개발 생태계와 프로그래밍 모델
강력한 하드웨어의 잠재력은 개발자가 얼마나 쉽고 효율적으로 그 성능을 활용할 수 있는지에 따라 결정된다. 퀄컴은 이를 위해 고수준 AI 프레임워크 지원부터 저수준 하드웨어 제어에 이르기까지 다층적인 개발 생태계를 제공한다.
7.1 퀄컴 AI 소프트웨어 스택
퀄컴의 최신 통합 AI 개발 도구는 ‘Qualcomm AI Engine Direct (QNN)’ SDK이다. 이는 이전의 SNPE(Snapdragon Neural Processing Engine)를 계승 및 확장한 것으로, 개발자가 PyTorch, TensorFlow, ONNX 등 널리 사용되는 프레임워크에서 훈련된 모델을 스냅드래곤 플랫폼에 최적화하고 배포할 수 있도록 지원한다.1
QNN SDK를 이용한 개발 워크플로우는 일반적으로 다음 단계를 거친다:
-
모델 변환:
qnn-tensorflow-converter,qnn-pytorch-converter와 같은 도구를 사용하여 원본 학습 모델을 QNN 런타임이 인식할 수 있는 내부 형식(.dlc파일)으로 변환한다.42 -
양자화(Quantization):
qairt-quantizer도구를 통해 32비트 부동소수점(FP32)으로 표현된 모델 가중치를 8비트 또는 4비트 정수(INT8/INT4)로 변환한다. 이 과정은 모델의 크기를 획기적으로 줄이고 메모리 대역폭 사용량을 감소시키며, 특히 정수 연산에 특화된 헥사곤 NPU에서의 실행 속도를 크게 향상시키는 핵심 최적화 단계이다.40 -
배포 및 실행: 변환 및 양자화가 완료된 모델을 타겟 디바이스에서 QNN 런타임을 통해 실행한다. 런타임은 모델 내의 각 연산을 분석하여 NPU, GPU, CPU 중 가장 적합한 하드웨어에 자동으로 할당하여 최상의 성능을 이끌어낸다.15
7.2 저수준 접근: Hexagon SDK
고수준 AI 프레임워크를 통하지 않고, 헥사곤 DSP/NPU의 성능을 직접 제어하고자 하는 개발자를 위해 퀄컴은 ’Hexagon SDK’를 제공한다.4 이 SDK는 개발자가 C/C++ 코드를 직접 작성하고 LLVM 기반 컴파일러를 사용하여 헥사곤 전용 바이너리를 생성할 수 있게 해주는 저수준 도구 모음이다.
Hexagon SDK의 주요 구성 요소는 다음과 같다:
-
LLVM 컴파일러: 헥사곤 명령어 셋 아키텍처(ISA)를 지원하는 오픈소스 컴파일러 툴체인이다. C/C++ 코드와 HVX 인트린직(intrinsics) 코드를 헥사곤 기계어로 변환하는 역할을 한다.12
-
시뮬레이터: 실제 하드웨어 없이 PC 환경에서 헥사곤 코드를 실행하고 디버깅할 수 있는 환경을 제공하여 개발 편의성을 높인다.16
-
FastRPC (Remote Procedure Call): 애플리케이션 프로세서(AP)인 CPU와 헥사곤 DSP 간의 통신을 중계하는 라이브러리이다. CPU에서 실행되는 메인 애플리케이션이 DSP에서 실행될 함수를 원격으로 호출하고, 메모리를 공유하며 데이터를 주고받는 메커니즘을 제공한다.8
7.3 개발의 장벽과 과제
강력한 성능에도 불구하고 헥사곤 개발 생태계는 몇 가지 구조적인 장벽과 과제를 안고 있다. 첫째, 보안 정책으로 인해 헥사곤에서 실행되는 모든 사용자 코드(애플릿)는 퀄컴 또는 OEM(Original Equipment Manufacturer)의 개인 키로 암호화 서명이 되어야 한다. 이는 시스템 안정성과 보안을 위한 조치이지만, 일반 개발자나 연구자가 자유롭게 저수준 코드를 작성하고 테스트하는 데 큰 장벽으로 작용한다.12
둘째, 툴체인의 복잡성과 안정성 문제이다. 퀄컴의 SDK, 특히 모델 변환 도구는 특정 표준 모델(예: ResNet) 외의 복잡하고 새로운 구조를 가진 모델을 변환할 때 실패하거나 최적화되지 않은 결과를 내는 경우가 있다는 비판이 제기된다. 부족한 문서와 어려운 디버깅 환경 또한 개발자들의 고충으로 지적된다.12
셋째, 핵심 하드웨어 기능에 대한 접근 제한이다. Hexagon SDK를 통한 저수준 프로그래밍으로는 HVX(벡터 유닛)까지만 직접 제어가 가능하며, NPU 성능의 핵심인 HMX/HTA(텐서 유닛)는 직접 프로그래밍할 수 없다. HMX는 오직 QNN/SNPE SDK와 같은 고수준 라이브러리를 통해서만 간접적으로 사용할 수 있다.12
이러한 상황은 퀄컴의 개발 생태계가 ’개방성’과 ‘폐쇄성’ 사이의 전략적 딜레마에 놓여 있음을 보여준다. 한편으로 퀄컴은 LLVM과 같은 오픈소스 컴파일러를 채택하고 12, PyTorch/TensorFlow 등 표준 AI 프레임워크를 지원하며 개방적인 생태계를 지향한다.40 다른 한편으로는 핵심 IP인 HMX에 대한 직접 접근을 차단하고, 코드 실행에 엄격한 서명 정책을 요구하며, 모뎀 DSP는 완전히 비공개로 유지하는 등 7 시스템 안정성과 보안을 위해 강력한 통제 정책을 유지한다. 이 딜레마는 헥사곤이 통신사, 스마트폰 OEM, 앱 개발자 등 다양한 이해관계자의 상충하는 요구사항(안정성 vs. 유연성)을 동시에 만족시켜야 하는 복합적인 역할을 수행하기 때문에 발생한다. 이로 인한 복잡성과 제약은 강력한 하드웨어의 잠재력을 완전히 끌어내는 데 걸림돌로 작용할 수 있는 양날의 검이다.
8. 결론: 헥사곤 NPU의 현재와 미래
퀄컴 헥사곤 프로세서는 저전력 고효율 신호 처리를 목표로 설계된 DSP의 유산을 바탕으로, 온디바이스 AI 시대의 요구에 부응하며 가장 강력하고 효율적인 NPU 중 하나로 성공적으로 진화했다. 특히 모바일 기기의 제한된 자원 하에서 최대의 성능을 이끌어내는 저전력 설계 기술과, SoC 내 여러 프로세서를 유기적으로 활용하는 시스템 수준의 최적화에서 독보적인 경쟁력을 보유하고 있다.
현재 헥사곤 NPU는 온디바이스 생성형 AI 시대의 핵심 엔진으로 자리매김하고 있다. 퀄컴은 안정적인 이미지 생성(Stable Diffusion), LLM의 빠른 추론 속도(초당 20 토큰 이상) 등을 시연하며 헥사곤 NPU가 텍스트, 이미지, 코드 등을 디바이스 내에서 직접 생성하는 AI 애플리케이션을 구동할 충분한 성능을 갖추었음을 입증했다.44 이러한 성능은 다음과 같은 주요 응용 분야에서 혁신을 주도하고 있다.
-
컴퓨테이셔널 포토그래피: 실시간 시맨틱 분할(Semantic Segmentation), AI 기반 노이즈 제거, 영상 보케(Bokeh) 등 스마트폰 카메라의 성능을 비약적으로 향상시키는 데 핵심적인 역할을 한다.44
-
실시간 음성/언어 처리: 실시간 번역, 배경 소음 억제, AI 비서 기능 등을 저전력으로 구현하여 사용자 경험을 혁신한다.1
-
AR/VR 및 게이밍: 객체 인식, 손 추적, 실시간 영상 화질 개선(Super Resolution) 등을 통해 몰입감 있는 경험을 제공한다.13
미래를 전망할 때, 헥사곤 아키텍처는 INT2와 같은 초저정밀도 데이터 타입을 지원하고, 클라우드와 엣지를 연동하는 하이브리드 AI 및 여러 디바이스가 협력하는 분산 추론(distributed inference) 환경에 최적화되는 방향으로 발전할 것으로 예상된다.47 그러나 Apple, Intel, AMD 등 경쟁사들 역시 NPU 성능을 급격히 향상시키고 있어 ’TOPS 경쟁’은 더욱 치열해질 것이다.3 이러한 치열한 경쟁 환경 속에서 헥사곤의 지속적인 성공은 하드웨어의 성능뿐만 아니라, 개발자들이 그 성능을 쉽고 효과적으로 활용할 수 있도록 SDK의 사용 편의성을 개선하고 접근성 장벽을 낮추는 소프트웨어 생태계의 성숙도에 달려있을 것이다.
아래 표들은 본 보고서에서 분석한 퀄컴 AI 엔진의 구성과 헥사곤 아키텍처의 핵심 특징을 요약한 것이다.
표 2. 퀄컴 AI 엔진 구성 요소별 역할 및 특징
| 구성 요소 | 주요 처리 작업 | 강점 (특화 영역) | 지원 데이터 정밀도 | 전력 효율성 |
|---|---|---|---|---|
| Hexagon NPU | AI 모델 추론 (행렬/벡터 연산) | 지속적인(Sustained) 고처리량 AI | INT4, INT8, INT16, FP16 | 매우 높음 |
| Adreno GPU | 대규모 병렬 연산, 그래픽 렌더링 | 고정밀도(FP16/FP32) AI, 스트리밍 데이터 | INT8, FP16, FP32 | 중간 |
| Kryo/Oryon CPU | 순차적 제어, OS/앱 실행 | 저지연(Low-latency) AI, 복잡한 제어 흐름 | INT8, FP16, FP32 | 낮음 |
| Sensing Hub | 상시(Always-on) 센서 데이터 처리 | 초저전력 배경 AI (예: 키워드 인식) | 저정밀도 정수 | 극도로 높음 |
표 3. 헥사곤 아키텍처의 핵심 특징 요약
| 기술 용어 | 핵심 개념 | 주요 역할 / 목표 |
|---|---|---|
| VLIW | 4개의 명령어를 하나의 패킷으로 묶어 동시 실행 | 정적 스케줄링을 통해 하드웨어 복잡성 및 전력 소모 감소, 사이클 당 처리량 극대화 |
| SIMD | 단일 명령어로 다중 데이터 처리 | 데이터 수준 병렬성을 활용하여 멀티미디어 및 신호 처리 가속 |
| 하드웨어 멀티스레딩 | 단일 코어에서 다중 스레드 동시 실행 | 메모리 지연 시간 은닉(Latency Hiding)을 통해 코어 활용률 및 전체 처리량 향상 |
| HVX | 1024비트 SIMD 코프로세서 | 컴퓨터 비전, 이미지/비디오 처리 등 벡터 연산 가속 |
| HMX / HTA | 전용 행렬 연산 하드웨어 블록 | 딥러닝의 핵심인 행렬 곱셈 및 컨볼루션 연산을 가속하여 NPU의 TOPS 성능 극대화 |
9. 참고 자료
- Unlocking on-device generative AI with an NPU and heterogeneous computing | Qualcomm, https://www.qualcomm.com/content/dam/qcomm-martech/dm-assets/documents/Unlocking-on-device-generative-AI-with-an-NPU-and-heterogeneous-computing.pdf
- Qualcomm Hexagon - Wikipedia, https://en.wikipedia.org/wiki/Qualcomm_Hexagon
- Qualocmm® Hexagon™ NPU - ResearchGate, https://www.researchgate.net/publication/374221889_QualocmmR_Hexagon_NPU
- Hexagon DSP SDK Collection: Landing Page, https://docs.qualcomm.com/bundle/publicresource/topics/80-77512-1/hexagon-dsp-sdk-introduction-to-npu.html
- Introduction to NPU - Hexagon DSP SDK Collection: Landing Page - Hexagon NPU SDK Documentation, https://docs.qualcomm.com/bundle/publicresource/topics/80-77512-1/hexagon-dsp-sdk-introduction-to-npu.html?product=1601111740010422
- At The Heart Of The AI PC Battle Lies The NPU - Moor Insights & Strategy, https://moorinsightsstrategy.com/at-the-heart-of-the-ai-pc-battle-lies-the-npu/
- HEXAGON DSP: AN ARCHITECTURE OPTIMIZED FOR MOBILE MULTIMEDIA AND COMMUNICATIONS - cs.wisc.edu, https://pages.cs.wisc.edu/~danav/pubs/qcom/hexagon_micro2014_v6.pdf
- Qualcomm® Hexagon™ DSP, https://docs.qualcomm.com/bundle/publicresource/topics/80-78185-2/dsp.html?product=1601111740035277
- SA8255P and SA8775P Ride SX 4.0 Automotive Development Platform New - Lantronix, https://www.lantronix.com/products/ride-sx-4-0-automotive-development-platform/
- QCS8550/QCM8550 Processors, https://docs.qualcomm.com/bundle/publicresource/87-61717-1_REV_A_Qualcomm_QCS8550_QCM8550_Processors_Product_Brief.pdf
- Qualcomm Hexagon DSP: An architecture optimized for mobile multimedia and communications - cs.wisc.edu, https://pages.cs.wisc.edu/~danav/pubs/qcom/hexagon_hotchips2013.pdf
- Qualcomm’s Hexagon DSP, and Now, NPU | Hacker News, https://news.ycombinator.com/item?id=37772427
- Accelerate Your On-device AI with the Qualcomm AI Engine - ProAndroidDev, https://proandroiddev.com/accelerate-your-on-device-ai-with-the-qualcomm-ai-engine-c091cc87ed42
- Qualcomm’s Hexagon 685 DSP is a Machine Learning Powerhouse : r/Android - Reddit, https://www.reddit.com/r/Android/comments/7i124g/qualcomms_hexagon_685_dsp_is_a_machine_learning/
- Qualcomm Linux AI/ML Guide, https://docs.qualcomm.com/bundle/publicresource/topics/80-70014-15
- Halide for Hexagon HVX, https://halide-lang.org/docs/md_doc_2_hexagon.html
- QCS8275 Data Sheet, https://docs.qualcomm.com/bundle/publicresource/topics/80-73475-1/device-description.html
- docs.qualcomm.com, https://docs.qualcomm.com/bundle/publicresource/topics/80-N2040-61#:~:text=from%20the%20core.-,HVX%20features,instructions%20can%20execute%20in%20parallel.
- Hexagon V79 HVX Programmer Reference Manual, https://docs.qualcomm.com/bundle/publicresource/topics/80-N2040-61
- Halide for Hexagon™ DSP with Hexagon Vector eXtensions (HVX) using LLVM, https://llvm.org/devmtg/2017-02-04/Halide-for-Hexagon-DSP-with-Hexagon-Vector-eXtensions-HVX-using-LLVM.pdf
- Qualcomm Hexagon Tensor Processor - HotChips 2023, https://www.hc2023.hotchips.org/assets/program/conference/day2/ML%20Inference/HC2023%20Qualcomm%20Hexagon%20NPU.pdf
- Qualcomm releases official Snapdragon X Plus and Snapdragon X Elite benchmarks for 45 TOPS Hexagon NPU : r/LocalLLaMA - Reddit, https://www.reddit.com/r/LocalLLaMA/comments/1d3hlhr/qualcomm_releases_official_snapdragon_x_plus_and/
- NPU information for Apple and Snapdragon : r/LocalLLaMA - Reddit, https://www.reddit.com/r/LocalLLaMA/comments/1gy9wsx/npu_information_for_apple_and_snapdragon/
- Qualcomm Artificial Intelligence Engine Powers AI Capabilities of Snapdragon Mobile Platform, https://www.qualcomm.com/news/releases/2018/02/qualcomm-artificial-intelligence-engine-powers-ai-capabilities-snapdragon
- Qualcomm Artificial Intelligence Engine Powers AI Capabilities of Snapdragon Mobile Platform, https://investor.qualcomm.com/news-events/press-releases/news-details/2018/Qualcomm-Artificial-Intelligence-Engine-Powers-AI-Capabilities-of-Snapdragon-Mobile-Platform-02-21-2018/default.aspx
- The Snapdragon® 8 Gen 1 Mobile Platform delivers groundbreaking innovations in AI, photography, gaming, and connectivity—for - Qualcomm, https://www.qualcomm.com/content/dam/qcomm-martech/dm-assets/documents/snapdragon-8-gen-1-mobile-platform-product-brief.pdf
- What TOPS MEANS | Qualcomm, https://www.qualcomm.com/content/dam/qcomm-martech/dm-assets/documents/What-TOPS-Means-Snapdragon-X-Series.pdf
- TOPS of the Heap: Qualcomm Unveils Snapdragon X2 Elite Extreme CPU With 18 Cores, Massive NPU | PCMag, https://www.pcmag.com/news/snapdragon-summit-qualcomm-unveils-snapdragon-x2-elite-extreme-cpu
- Qualcomm launches generative AI solutions at Snapdragon Summit 2023, https://www.jonpeddie.com/news/qualcomm-launches-generative-ai-solutions-at-snapdragon-summit-2023/
- Qualcomm Snapdragon 8 Gen 3: Here Are The Expected Benchmark Results - Pokde.Net, https://pokde.net/gadget/smartphone/qualcomm-snapdragon-8-gen-3-benchmarks
- Early Snapdragon X2 Elite Extreme benchmarks have it beating top Intel and AMD chips, https://www.gsmarena.com/early_snapdragon_x2_elite_extreme_benchmarks_have_it_beating_top_intel_and_amd_chips-news-69755.php
- Benchmark MLPerf Inference: Mobile | MLCommons V3.1 Results, https://mlcommons.org/benchmarks/inference-mobile/
- Snapdragon 888+ tops the latest MLPerf Inference benchmark submissions - Qualcomm, https://www.qualcomm.com/news/onq/2021/10/snapdragon-888-tops-latest-mlperf-inference-benchmark-submissions
- Mobile AI Performance Benchmarking & Analysis with the MLPerf App - YouTube, https://www.youtube.com/watch?v=tn6KxfxrQek
- Releases · mlcommons/mobile_app_open - GitHub, https://github.com/mlcommons/mobile_app_open/releases
- REPORT: The NPU – The Newest Chip on the Block - Creative Strategies, https://creativestrategies.com/report-the-npu-the-newest-chip-on-the-block/
- Does the new Snapdragon X2 Elite Extreme beat the Apple M4? | Windows Central, https://www.windowscentral.com/hardware/qualcomm/snapdragon-x2-elite-extreme-vs-apple-m4-pro-max
- Qualcomm Takes On AMD, Apple, Intel With Snapdragon X Elite - EE Times, https://www.eetimes.com/qualcomm-takes-on-amd-apple-intel-with-snapdragon-x-elite/
- Advantage of Custom “Neural Engine” Processor on Apple Silicon Versus CPU Extensions for Hardware Acceleration? - Reddit, https://www.reddit.com/r/hardware/comments/10uw8q9/advantage_of_custom_neural_engine_processor_on/
- Documentation - Qualcomm AI Engine Direct SDK, https://docs.qualcomm.com/bundle/publicresource/topics/80-63442-50/introduction.html
- quic/qidk - GitHub, https://github.com/quic/qidk
- Overview - Qualcomm AI Engine Direct SDK, https://docs.qualcomm.com/bundle/publicresource/topics/80-63442-50/overview.html
- Qualcomm Neural Processing SDK, https://docs.qualcomm.com/bundle/publicresource/topics/80-63442-2
- SNAPDRAGON® 8 GEN 3 MOBILE PLATFORM - Qualcomm, https://www.qualcomm.com/content/dam/qcomm-martech/dm-assets/images/company/news-media/media-center/press-kits/snapdragon-summit-2023/documents/Snapdragon8Gen3_%20ProductBrief.pdf
- Qualcomm Driving On-device Generative AI to Power Intelligent Experiences at the Edge, https://www.youtube.com/watch?v=XrTYGq-M3fI
- NPU Landscape - Deep Render, https://deeprender.ai/blog/npu-landscape
- Snapdragon Summit 2025: A Look at Qualcomm’s AI Product Roadmap - ABI Research, https://www.abiresearch.com/blog/snapdragon-summit-2025-a-look-at-qualcomms-ai-product-roadmap?hsLang=en